iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 10
0

一來是大部分的機器學習競賽或是大公司內部的演算都是使用xgboost,準確率集便不知道原理不回調整參數都有相當的水準,
據說xgboost是由extreme + gradient + boosting + cart 組成 ,我先從cart看起。

全名叫Classification and Regression Tree,分類與回歸樹

這東西有個很有名的指標是到時候xgboost畫出來也會看到的Gini指數。

分裂指標(Gini指數): 公式是 pi(1-pi)的加總

概念上來說 如果有1,2,3...等分類的話, p1 = p2 = p3 的Gini指數會是最大的,也就是說分裂指標越小表示辨別度越高。

也就是說在所有可能的特徵中,如果可以找到一個點切割使得Gini指數最小,那我們就認為他是最優點,並依照這個點做為決策樹的區分(樹枝)。

然後因為有不同的變數,所以要一直找到滿足所有變數為止。


上一篇
R語言_目標編碼_2
下一篇
R語言_一言不合就xgboost_2
系列文
R語言 - 從「主觀感覺」轉為「客觀事實」30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言